智能论文笔记

Augmenting Scientific Creativity with Retrieval across Knowledge Domains

Hyeonsu B. Kang , Sheshera Mysore , Kevin Huang , Haw-Shiuan Chang , Thorben Prein , Andrew McCallum , Aniket Kittur , Elsa Olivetti

分类：自然语言处理

2022-06-02

Exposure to ideas in domains outside a scientist's own may benefit her in reformulating existing research problems in novel ways and discovering new application domains for existing solution ideas. While improved performance in scholarly search engines can help scientists efficiently identify relevant advances in domains they may already be familiar with, it may fall short of helping them explore diverse ideas \textit{outside} such domains. In this paper we explore the design of systems aimed at augmenting the end-user ability in cross-domain exploration with flexible query specification. To this end, we develop an exploratory search system in which end-users can select a portion of text core to their interest from a paper abstract and retrieve papers that have a high similarity to the user-selected core aspect but differ in terms of domains. Furthermore, end-users can `zoom in' to specific domain clusters to retrieve more papers from them and understand nuanced differences within the clusters. Our case studies with scientists uncover opportunities and design implications for systems aimed at facilitating cross-domain exploration and inspiration.

translated by 谷歌翻译

Knowledge Base Question Answering by Case-based Reasoning over Subgraphs

Rajarshi Das , Ameya Godbole , Ankita Naik , Elliot Tower , Robin Jia , Manzil Zaheer , Hannaneh Hajishirzi , Andrew McCallum

分类：自然语言处理 | 人工智能 | 机器学习

2022-02-22

问题回答（QA）对知识库（KBS）的挑战是充满挑战的，因为所需的推理模式多样化，本质上是无限的，类型的推理模式。但是，我们假设以大型KB为基础，以回答各自子图中各个实体的查询类型所需的推理模式。利用不同子图的本地社区之间的这种结构相似性，我们引入了一个半参数模型（cbr-subg），（i）一个非参数组件，每个查询，每个查询，都会动态检索其他类似的$ k $ - $ - $ - $ - near-neart-tebrienk（KNN）培训查询以及查询特定的子图和（ii）训练的参数组件，该参数分量可以从KNN查询的子图中识别（潜在的）推理模式，然后将其应用于目标查询的子图。我们还提出了一种自适应子图收集策略，以选择特定于查询的compact子图，从而使我们可以扩展到包含数十亿个事实的完整freebase kb。我们表明，CBR-SUBG可以回答需要子图推理模式的查询，并在几个KBQA基准上的最佳模型竞争性能。我们的子图收集策略还会产生更多紧凑的子图（例如，webQSP的尺寸减小55 \％，而将答案召回的召回率增加4.85 \％）\ footNote {代码，模型和子码头可在\ url {https://github.com上获得。 /rajarshd/cbr-subg}}。

translated by 谷歌翻译

Sublinear Time Approximation of Text Similarity Matrices

Archan Ray , Nicholas Monath , Andrew McCallum , Cameron Musco

分类：机器学习 | 自然语言处理

2021-12-17

我们研究了自然语言处理中出现的近似对相似矩阵的算法。通常，计算$ N $数据点的相似性矩阵需要$ \ omega（n ^ 2）$相似计算。这种二次缩放是一个重要的瓶颈，尤其是当通过昂贵的功能计算相似性时，例如，通过变压器模型计算。近似方法通过使用恰好计算的相似性的小子集来减少这种二次复杂性，以近似于完整成对相似性矩阵的其余部分。大量工作侧重于正半纤维（PSD）相似矩阵的有效近似，其在内核方法中。然而，关于无限期（非PSD）相似性矩阵的较少被理解得更少，这通常在NLP中产生。通过观察到，许多这些矩阵仍然有点接近PSD，我们将流行的NYSTR \“{o} M方法介绍到无限制地的概述。我们的算法可以应用于任何相似性矩阵并在Sublinear时间运行在矩阵的大小中，使用仅$ O（ns）$相似性计算产生秩的等级$近似。我们表明我们的方法以及CR Cur分解的简单变体，在近似各种相似度方面表现得非常好在NLP任务中产生的矩阵。我们在文档分类，句子相似度和跨文档COREREFED的下游任务中展示了近似相似性矩阵的高精度。

translated by 谷歌翻译

Diverse Distributions of Self-Supervised Tasks for Meta-Learning in NLP

Trapit Bansal , Karthick Gunasekaran , Tong Wang , Tsendsuren Munkhdalai , Andrew McCallum

分类：自然语言处理 | 机器学习

2021-11-02

元学习考虑了学习高效学习过程的问题，可以利用其过去的经验来准确解决新任务。然而，元学习的效果是至关重要的，这取决于可用于训练的任务的分布，并且通常认为这是已知的先验或由有限的监督数据集构建。在这项工作中，我们的目标是通过考虑从未标记的文本自动提出的自我监督任务来提供元学习的任务分布，以在NLP中启用大规模的元学习。我们通过考虑任务多样性，困难，类型，域和课程的重要方面，并调查它们如何影响元学习表现的重要方面，设计多个自我监督任务分布。我们的分析表明，所有这些因素有意义地改变任务分配，一些突起在荟萃学习模型的下游的下游显着改进。凭经验，20下游任务的结果显示出几次学习的显着改善 - 在以前的无监督的元学习方法增加到+ 4.2％的绝对精度（平均值），并与换行符的监督方法相比表现。

translated by 谷歌翻译

DISAPERE: A Dataset for Discourse Structure in Peer Review Discussions

Neha Kennard , Tim O'Gorman , Rajarshi Das , Akshay Sharma , Chhandak Bagchi , Matthew Clinton , Pranay Kumar Yelugam , Hamed Zamani , Andrew McCallum

分类：自然语言处理

2021-10-16

At the foundation of scientific evaluation is the labor-intensive process of peer review. This critical task requires participants to consume vast amounts of highly technical text. Prior work has annotated different aspects of review argumentation, but discourse relations between reviews and rebuttals have yet to be examined. We present DISAPERE, a labeled dataset of 20k sentences contained in 506 review-rebuttal pairs in English, annotated by experts. DISAPERE synthesizes label sets from prior work and extends them to include fine-grained annotation of the rebuttal sentences, characterizing their context in the review and the authors' stance towards review arguments. Further, we annotate every review and rebuttal sentence. We show that discourse cues from rebuttals can shed light on the quality and interpretation of reviews. Further, an understanding of the argumentative strategies employed by the reviewers and authors provides useful signal for area chairs and other decision makers.

translated by 谷歌翻译

Improved Latent Tree Induction with Distant Supervision via Span Constraints

Zhiyang Xu , Andrew Drozdov , Jay Yoon Lee , Tim O'Gorman , Subendhu Rongali , Dylan Finkbeiner , Shilpa Suresh , Mohit Iyyer , Andrew McCallum

分类：自然语言处理

2021-09-10

超过三十年，研究人员已经开发和分析了潜伏树诱导的方法作为无监督句法解析的方法。尽管如此，与其监督的对应物相比，现代系统仍然不足以使其具有任何实际用途作为文本的结构注释。在这项工作中，我们提出了一种技术，该技术以跨度约束（即短语包围）的形式使用远端监督，以提高在无监督选项解析中的性能。使用相对少量的跨度约束，我们可以大大提高Diora的输出，这是一个已经竞争的无监督解析系统。与完整的解析树注释相比，可以通过最小的努力来获取跨度约束，例如使用从维基百科派生的词典，以查找确切的文本匹配。我们的实验显示了基于实体的跨度约束，提高了英语WSJ Penn TreeBank的选区分析超过5 F1。此外，我们的方法延伸到跨度约束易于实现的任何域，以及作为一个案例研究，我们通过从工艺数据集解析生物医学文本来证明其有效性。

translated by 谷歌翻译

Word2Box: Capturing Set-Theoretic Semantics of Words using Box Embeddings

Shib Sankar Dasgupta , Michael Boratko , Siddhartha Mishra , Shriya Atmakuri , Dhruvesh Patel , Xiang Lorraine Li , Andrew McCallum

分类：自然语言处理 | 人工智能

2021-06-28

连续空间中单词的学习表示可能是NLP中最基本的任务，但是单词以比向量点产品相似性提供的富裕方式相互作用。单词之间的许多关系可以从理论上表达为设置，例如形容词 - 名称化合物（例如“红色汽车” $ \ subseteq $“ Cars”）和同符（例如，“舌头” $ \ cap $应该是与“口”相似，而“舌头” $ \ cap $“语言”应该与“方言”相似）具有自然的理论解释。盒子嵌入是一种新型基于区域的表示，可提供执行这些设定理论操作的能力。在这项工作中，我们提供了对盒子嵌入的模糊集解释，并使用设定理论训练目标学习单词的框表示。我们在各种单词相似性任务上，尤其是在较不常见的单词上表现出改善的性能，并执行定量和定性分析，以探讨Word2box提供的其他独特表达性。

translated by 谷歌翻译

MOLEMAN: Mention-Only Linking of Entities with a Mention Annotation Network

Nicholas FitzGerald , Jan A. Botha , Daniel Gillick , Daniel M. Bikel , Tom Kwiatkowski , Andrew McCallum

分类：自然语言处理 | 机器学习

2021-06-02

我们提出了一种基于实例的最近的邻居方法与实体链接。与大多数先前的实体检索系统相反，它代表每个实体都用单个向量代表每个实体，我们构建了一个上下文化的提及编码器，该系统学会学会在向量空间中更接近同一实体的相似提及，而不是对不同实体的提及。这种方法使一个实体的所有提及都可以用作“类原型”，因为推理涉及从训练集中的完整标记实体提及并应用最近提及的邻居的实体标签中检索。我们的模型经过了来自Wikipedia超链接的大型多语种对，并在7亿个提及的指数上执行最近的邻居推断。训练，提供更容易解释的预测，并在两个多语言实体上链接基准测试的所有其他系统都更简单。

translated by 谷歌翻译

Case-based Reasoning for Natural Language Queries over Knowledge Bases

Rajarshi Das , Manzil Zaheer , Dung Thai , Ameya Godbole , Ethan Perez , Jay-Yoon Lee , Lizhen Tan , Lazaros Polymenakos , Andrew McCallum

分类：自然语言处理 | 人工智能 | 机器学习

2021-04-18

从头开始解决复杂问题通常是有挑战性的，但如果我们可以访问其解决方案的其他类似问题，则更容易 - 一种称为基于案例的推理（CBR）的范式。我们提出了一种神经象征性的CBR方法（CBR-KBQA），用于在大知识库上应答。 CBR-KBQA由非参数内存组成，该内存存储案例（问题和逻辑表单）和参数模型，该参数模型可以通过检索与其相关的案例来为新问题生成逻辑表单。在包含复杂问题的几个KBQA数据集上，CBR-KBQA实现了竞争性能。例如，在ComplexWebQuestions数据集上，CBR-KBQA以11 \％的准确度优于当前最新状态。此外，我们表明CBR-KBQA能够使用新案例\ EMPH {没有}任何进一步的培训：通过在案例存储器中纳入一些人类标记的示例，CBR-KBQA能够成功地生成包含未经看线KB实体的逻辑表格以及关系。

translated by 谷歌翻译

Extending Multi-Sense Word Embedding to Phrases and Sentences for Unsupervised Semantic Applications

Haw-Shiuan Chang , Amol Agrawal , Andrew McCallum

分类：自然语言处理 | 机器学习

2021-03-29

大多数无监督的NLP模型代表了语义空间中单点或单个区域的每个单词，而现有的多感觉单词嵌入物不能代表像素序或句子等更长的单词序列。我们提出了一种用于文本序列（短语或句子）的新型嵌入方法，其中每个序列由一个不同的多模码本嵌入物组表示，以捕获其含义的不同语义面。码本嵌入式可以被视为集群中心，该中心总结了在预训练的单词嵌入空间中的可能共同出现的单词的分布。我们介绍了一个端到端的训练神经模型，直接从测试时间内从输入文本序列预测集群中心集。我们的实验表明，每句话码本嵌入式显着提高无监督句子相似性和提取摘要基准的性能。在短语相似之处实验中，我们发现多面嵌入物提供可解释的语义表示，但不优于单面基线。

translated by 谷歌翻译